Evolution ML Inference

Описание сервиса
Сервис для запуска ML-моделей из библиотеки Hugging Face на облачных мощностях с GPU, в том числе в пользовательских Docker-образах. Для более эффективного инференса Evolution ML Inference поддерживает среды исполнения vLLM, TGI, Ollama, Diffusers, Transformers, а также модели-трансформеры, диффузионные модели и большие текстовые модели (LLM).




Предварительный расчёт. Не является публичной офертой. Ресурсы предоставляются исключительно для тестирования. Не подразумевается их безвозмездное предоставление по смыслу пп.4 п.1 ст.575 ГК РФ
Возможности
Производительность и экономия
Совместное использование ресурсов графического ускорителя (Shared GPU) создает баланс стоимости, производительности и эффективности потребления облачных ресурсов.
Динамическое автомасштабирование
При повышении числа запросов инференса автоматически выделяются дополнительные мощности или наоборот один GPU используется совместно несколькими инференсами.
Поддержка моделей из Hugging Face
Сервис позволяет запускать модели из популярной платформы Hugging Face, а также использовать библиотеки vLLM, TGI, Ollama, Diffusers для более эффективного инференса.
Мгновенный доступ к инференсу
Доступ к инференсу моделей открывается сразу после оплаты ресурсов. Счет за сервис выставляется по модели pay-as-you-go: плата начисляется только за использованные ресурсы.
Запуск моделей в Docker-образах
Docker RUN запускает модели с Docker-образами в контейнерной среде. Сервис обеспечивает автоматическое развертывание контейнеров и динамическое автомасштабирование.
Защита инфраструктуры
Платформа Evolution обеспечивает защиту виртуальных машин от несанкционированного доступа и антивирусную защиту, а также поддерживает межсетевое экранирование сетевых потоков сервиса.
Ответы на вопросы
Cloud.ru – ведущий провайдер облачных и AI‑технологий
Больше чем просто поддержка
